Modelo de lenguaje grande

Un modelo de lenguaje grande o LLM (siglas en inglés para Large Language Model), también llamado modelo de lenguaje de gran tamaño, es un modelo de lenguaje que consta de una red neuronal con muchos parámetros (normalmente miles de millones o más), entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado.^[1] Los LLM surgieron alrededor de 2018 y se desempeñan bien en una amplia variedad de tareas. Esto ha cambiado el enfoque de la investigación del procesamiento del lenguaje natural alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas específicas.

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3 y GPT-4 , utilizados en ChatGPT y Microsoft Copilot ), PaLM y Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot del mismo nombre), o Claude de Anthropic, entre otros.

Aunque el término modelo grande de lenguaje no tiene una definición formal, a menudo se refiere a modelos de aprendizaje profundo que tienen un recuento de parámetros del orden de miles de millones o más. Los LLM son modelos de propósito general que se destacan en una amplia gama de tareas, en lugar de estar capacitados para una tarea específica (como el análisis de sentimientos, el reconocimiento de entidades nombradas o el razonamiento matemático).^[2] La habilidad con la que realizan las tareas y la gama de tareas de las que son capaces parece ser una función de la cantidad de recursos (datos, número de parámetros, capacidad de cálculo) que se les dedican, de una manera que no depende sobre avances adicionales en el diseño.^[3]

Aunque entrenados en tareas simples como predecir la siguiente palabra en una oración, se encuentran modelos de lenguaje neuronal con suficiente entrenamiento y contaje de parámetros para capturar gran parte de la sintaxis y la semántica del lenguaje humano. Además, los modelos de lenguaje grande demuestran un conocimiento general considerable sobre el mundo y son capaces de "memorizar" una gran cantidad de hechos durante el entrenamiento.

↑ Goled, Shraddha (7 de mayo de 2021). «Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ». Analytics India Magazine.
↑ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (31 de agosto de 2022). «Emergent Abilities of Large Language Models». Transactions on Machine Learning Research (en inglés). ISSN 2835-8856.
↑ Bowman, Samuel R. Eight Things to Know about Large Language Models.

[1] Goled, Shraddha (7 de mayo de 2021). «Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ». Analytics India Magazine.

[emergentpaper-2] Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (31 de agosto de 2022). «Emergent Abilities of Large Language Models». Transactions on Machine Learning Research (en inglés). ISSN 2835-8856.

[Bowman-3] Bowman, Samuel R. Eight Things to Know about Large Language Models.

[1]

[2]

[3]